04. 练习:知识测验

练习:知识测验

玩象棋

假设你是一个智能体,你的目标是玩象棋。在每个时间步,你都从游戏中的一组可能的走法中选择任何一个动作。你的对手是环境的一部分;你以自己的走法做出回应,你在下个时间步收到的状态是当你选择下个走法时棋盘的布局。奖励仅在游戏结束时获得,假设如果你获胜了,奖励为 1,失败了,奖励为 -1。

这是一个阶段性任务,当游戏结束时,一个阶段结束。原理是通过玩该游戏很多次,或通过与该环境互动很多个阶段,你越来越善于玩象棋。

需要注意的是,这个问题非常难,因为只有游戏结束时才会获得反馈。如果你失败了(并在阶段结束时获得奖励 -1),不清楚你到底何时出错了:或许你玩的很差,每步都出错了,或者你大部分时间都玩的很好,只是在结束时犯了一个小小的错误。

在这种情形下,奖励提供的信息非常少,我们称这种任务存在稀疏奖励问题。这是一个专门的研究领域,如果感兴趣的话,建议你详细了解一下。

玩象棋

在象棋中,智能体可以采取什么样的示例动作?

SOLUTION: 移动棋子

该游戏有什么样的示例状态?

SOLUTION:
  • 棋盘布局

‘假设你刚开始与对手一起玩象棋,似乎进展的不错,你已经走了 20 步,并且从对手那拿走了 5 个棋子。游戏还没结束,因此你不能完全确定你将获胜,但是可能性很大。你到目前为止获得了多少累积奖励?'

SOLUTION: 0

逃脱迷宫

假设有这样一款游戏:智能体位于一个迷宫中,尝试找到抵达目的地的最快路径。如果智能体只能随机地探索迷宫,在至少抵达目的地一次之前,它将学不到任何规律。

探索迷宫

在迷宫中,智能体可以采取什么样的示例动作?

SOLUTION: 在迷宫中向北移动